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基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 研究 
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摘要 : [ 目的 /意义 ] 基 于 大 量 专利 文献 数据 的 核心 技术 主题 识别 有 助 于 识别 某 技 术 领 域 的 关键 技术 、 分 析 
关键 技术 的 发 展 方向 ,是 进行 技术 创新 的 基础 情报 工作 ,对 于 研究 人 员 、 企 业 乃 至 国家 层面 都 具有 一 定 的 意义 。 
[方法 /过 程 ] 提 出 基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 ,首先 基于 经 典 LDA 模型 进行 主题 识别 ,然后 利 
用 名 词组 块 对 初始 LDA 主题 识别 结果 进行 标注 ,构建 Chunk-LDA 主题 识别 结果 ,提高 其 可 解读 性 ;然后 基于 社 
会 网 络 分 析 方 法 构建 主题 网 络 ,识别 核心 技术 主题 ;基于 R 语言 的 LDAvis 工具 包 绘 制 可 交互 的 Chunk -LDAvis 
私 ; 技 术 主题 关联 分 析 图 谱 ,发 现 核心 技术 主题 的 隐 含 联系 ,辅助 进行 核心 技术 主题 识别 。[ 结果 /结论 ] 通过 
对 急 米 农业 领域 进行 实证 研究 ,验证 了 本 文 提 出 方法 的 准确 性 和 可 行 性 。 
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专利 分 析 i 


核心 技术 主题 


交互 可 视 化 


C3 随 着 新 一 轮 的 世界 科技 革命 和 产业 变革 的 快速 演 
进 3 技 术 创 新 持续 涌现 并 促进 新 产品 新 需求 和 新 业态 
的 淹 生 ,成 为 社会 经 济 持续 前 进发 展 的 关键 驱动 力 , 影 
响 紧 济 格局 和 产业 形态 的 调整 ,成 为 驱动 发 展 和 提高 
国家 竞争 力 的 关键 所 在 。 目 前 ,世界 各 国 十 分 重视 科 
技 贸 新 ,纷纷 加 大 在 高 新 技术 领域 的 投入 ,以 期 在 新 一 
轮 沫 科技 革命 中 抢占 先 机 。 我 国 近年 来 一 直 强 调 创新 
驱动 发 展 战略 ,认为 科技 创新 是 提高 社会 生产 力 和 综 
合 国力 的 战略 支撑 ,必须 摆 在 国家 发 展 全 局 的 核心 位 
置 。 

大 数据 时 代 , 专 利 ,论文 等 科技 文献 数量 呈 儿 何 级 
数 飞速 增长 中 ,支撑 科技 决策 科技 创新 的 全 局 性 .前 
脆性 .战略 性 的 科技 战略 情报 服务 工作 尤为 重要 。 世 
界 知 识 产 权 组 织 指 出 90% 以 上 的 科技 信息 是 通过 专 
利信 息 反 映 出 来 的 ,专利 文献 已 经 成 为 分 析 技 术 发 展 
态势 的 重要 可靠 的 数据 来 源 。 尽 管 全 球 专利 产 出 量 
时 飞速 增长 态势 ,但 有 关 学 者 通过 对 欧洲 国家 20 世纪 


50 年 代 后 专利 价值 的 评估 发 现 专利 文献 的 价值 分 布 
并 不 均衡 , 约 5% -10% 的 专利 文献 的 价值 占据 了 专 
利文 献 总 价值 的 一 半 ”” ,如 何 从 大 量 的 专利 文献 中 
准确 ` 有 效 地 捕 提 到 核心 技术 并 预测 其 发 展 趋势 成 为 
目前 科技 情报 工作 中 或 需 解决 的 问题 。 

因此 ,国内 外 众多 学 者 进行 基于 专利 文献 数据 的 
技术 识别 与 预测 研究 ”, 并 取得 了 众多 研究 成 果 , 例 
如 :基于 专利 引文 分 析 、 专 利 主 题词 分 析 和 可 视 化 分 
析 的 核心 技术 识别 与 预测 分 析 方 法 ,为 各 国 的 科 
技 创新 提供 了 一 定 的 帮助 ,但 是 随 着 情报 需求 的 不 
断 深化 ,相应 核心 技术 识别 与 预测 方法 有 待 进一步 
发 展 。 

在 目前 研究 的 基础 上 ,本 文 提出 一 种 基于 Chunk 
-LDAvis 的 核心 技术 主题 识别 方法 ,使 之 能 够 应 对 不 
断 深 化 的 科技 创新 情报 需求 ,以 期 为 科研 人 员 企业 


和 国家 等 不 同 层面 的 科技 情报 工作 提供 一 定 的 参考 
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1 相关 研究 


1.1 基于 引用 特征 的 核心 技术 主题 识别 

随 着 世界 科技 革命 和 产业 变革 的 快速 演进 ,基于 
科技 文献 的 核心 技术 识别 研究 广泛 受到 各 国学 者 、 企 
业 和 政府 的 高 度 重视 。 其 中 ,国内 外 学 者 们 就 如 何 利 
用 科技 文献 数据 高 效 、 准 确 地 识别 出 核心 技术 .热点 技 
术 及 其 发 展 趋势 展开 了 大 量 的 研究 工作 。 概 括 起 来 ， 
主要 可 以 分 为 两 个 方向 ,一 是 通过 分 析 专 利文 献 的 同 
被 引 、 耦 合 和 直接 引用 等 引用 特征 ;二 是 通过 分 析 专 利 
文献 的 题名 、 摘 要 等 文本 内 容 特征 进行 核心 技术 主题 
识别 。 

其 中 ,基于 专利 引用 特征 的 核心 技术 主题 识别 方 
法 较 早 受 到 学 者 的 关注 ,例如 :0，Kwon 等 "通过 构建 
专科 引文 看 合 网 络 和 共 引 网 络 ,综合 分 析 专 利 分 布 情 
沱 限 而 识别 核心 技术 ,并 且 通 过 3 个 领域 的 实证 研究 
KDT OPERAE. C. Choi 等 ”提出 一 种 基于 


一 Hsu 等 ”利用 专利 聚 类 方法 建立 了 生物 制 氧 领域 
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PUCIA D 4E MGE Page Rank 算法 进行 履 
GEHE OLED 领域 中 来 识别 核心 专利 。 亢 
川 柱 等 "通过 相互 引证 关系 构建 专利 文献 的 引证 网 
终 6 芍 后 基于 个 体 价值 与 网 络 价值 指标 进行 核心 专利 
主题 识别 。 

基于 引文 特征 的 核心 技术 识别 方法 能 够 较为 有 效 
地 识别 核心 技术 ,但 由 于 引文 分 析 存在 引文 时 灌 性 ( 妈 
一 篇 文献 从 发 表 到 被 引用 需要 一 定 的 时 间 , 而 施 引 文 
献 从 完成 到 发 表 又 需要 一 段 时 间 ) ,很 多 学 者 质疑 基于 
引用 特征 识别 核心 技术 的 时 效 性 、 准 确 性 ,并 且 尝试 深 
入 专利 文献 内 容 进行 挖掘 ,基于 文本 内 容 ( 专 利 题名 、 
摘要 等 ) 特 征 进行 共 现 、 珍 类 分 析 , 以 期 识别 出 更 加 县 
有 可 解读 性 准确 性 的 核心 技术 主题 。 
1.2 ”基于 内 容 特 征 的 核心 技术 主题 识别 

随 着 自然 语言 处 理 技术 (文本 聚 类 、LDA 主题 模 
型 “和 社区 识别 ”“ ”等 ) 的 发 展 ,基于 专利 题名 、 摘 
要 等 内 容 特征 的 核心 技术 主题 识别 方法 也 逐渐 受到 学 
者 的 重视 。 

例如 ,Y，G， Lee 等 中 提出 了 一 种 应 用 于 选择 核 
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心 战略 研究 领域 的 “技术 集群 分 析 ” 方 法 ,并 将 该 方法 
应 用 于 纳米 技术 领域 的 国家 研发 项 目 ,具体 思路 是 : 关 
键 词 抽取 .专利 文档 聚 类 ,利用 关键 词 在 专利 文档 聚 类 
中 的 层次 分 布 关 系 分 析 核 心 技术 ,并 利用 该 方法 预测 
了 韩国 纳米 技术 领域 的 三 大 核心 技术 集群 。 栾 春 娟 
等 ”以 德 温 特 专 利 库 为 数据 源 , 抽取“ 德 温 特 指 南 代 
fi" ( Derwent Manual Code, DMC ) 并 绘制 共 现 网 络 进 
行 可 视 化 分 析 , 从 而 识别 核心 技术 领域 ,最 后 以 航空 航 
天 领域 为 例 进 行 了 实证 研究 。 范 宇 等 ”提出 了 适用 
于 专利 信息 聚 类 的 主题 模型 和 聚 类 算法 ,将 潜在 狄 利 
克 雷 分 配 (LDA ) 主题 模型 和 OPTICS 算法 相 结合 进行 
核心 专利 主题 分 析 。 李 佳 佳 等 ”利用 社会 网 络 分 析 
方法 对 中 国 、 美 国 和 欧洲 等 不 同 国家 的 专利 分 类 号 共 
现 网 络 图 进行 对 比分 析 , 识 别 出 中 国 、 美 国 和 欧洲 的 核 
心 专利 领域 。 伊 惠 芳 等 “结合 LDA 模型 和 战略 坐标 
图 方法 进行 专利 技术 主题 分 析 , 识 别 出 其 中 的 核心 技 
术 主 题 及 其 结构 特征 ,对 于 客观 合理 地 追踪 技术 前 沿 、 
提高 研发 效率 具有 重要 意义 。 
虽然 ,基于 专利 文献 文本 内 容 ( 关 键 词 .分 类 号 
等 ) 进 行 共 现 、 聚 类 分 析 相 比 基 于 引用 特征 的 方法 具有 
一 定 的 优势 (不 存在 引文 时 湿性 ) ;但 同样 存在 一 定 的 
不 足 , 如 关键 词 之 间 人 欠缺 语义 关系 ,无 法 反映 词 与 词 之 
间 的 关联 关系 ,而 且 不 能 有 效 揭示 技术 主题 之 间 的 关 
联 关系 。 
1.3 LDA 模型 的 改进 与 应 用 

LDA 模型 最 早 是 由 D. M. Blei 等 于 2003 年 提出 ， 
可 以 基于 统计 概率 层面 表达 词 间 语 义 层 次 关系 ”。 
2006 4E,D. M. Blei 等 又 提出 了 动态 主题 模型 ,让 LDA 
模型 可 以 处 理 具 有 时 间 戳 记 的 文档 数据 集 ,实现 动态 
主题 识别 与 追踪 ”。 但 D， M. Blei 等 提出 的 经 典 
LDA 模型 存在 一 定 不 足 , 例 如 ,LDA 识别 结果 中 每 个 
主题 是 一 组 单词 ,不 便于 解读 ;主题 识别 之 后 ,主题 一 
主题 .主题 一 词语 之 间 关联 如 何 衡 量 。 

针对 这 两 点 不 足 , 有 关 学 者 进行 了 改进 研究 ,取得 
了 众多 人 研究 成 果 , 如 TNG (Topical N -Grams) 模型 2 、 
PhraseLDA f£) 7 7! LDAvis fi X7" ,其 中 TNG, 
PhraseLDA 模型 采用 短语 表示 主题 ,具有 更 好 的 语义 
表达 性 ;LDAvis 模型 能 够 基于 多 维 尺 度 算 法 将 主题 识 
别 结 果 映 射 到 二 维 空间 中 ,进而 揭示 主题 一 主题 E 
题 一 词语 之 间 的 关联 。 近 年 来 ,图 情 领域 的 学 者 利用 
LDA 模型 及 其 改进 算法 进行 科研 主题 识别 ,将 其 应 用 
于 基于 文本 数据 的 科技 情报 分 析 工 作 中 , 范 云 满 等 
利用 TNG 模型 进行 了 新 兴 主 题 的 探测 研究 。 张 琴 
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等 "利用 PhraseLDA 模型 进行 了 主题 短语 挖掘 方法 
的 研究 ,结果 表明 该 方法 在 多 种 数据 集中 挖掘 出 的 主 
题 短语 质量 较 高 。 

在 上 述 分 析 基 础 上 ,本 研究 借鉴 TNG, PhraseLDA 
模型 ,采用 名 词组 块 ( Chunk ) 表示 主题 ( 相 较 于 短语 
Phrase ,名 词组 块 Chunk 语义 信息 含量 更 高 ) ,然后 利 
用 LDAvis 模型 揭示 主题 一 主题 .主题 一 词语 之 间 的 关 
联 , 进 而 构建 Chunk -LDAvis 模型 ,并 将 其 应 用 于 核心 
技术 主题 识别 研究 中 。 基 于 Chunk -LDAvis 进行 核心 
技术 主题 识别 ,一 方面 可 以 将 每 个 核心 技术 主题 表示 
为 一 组 名 词组 块 ,提高 可 解读 性 , 另 一 方面 可 以 揭示 核 
心 技术 主题 .主题 词 之 间 的 相互 关联 。 

综 上 所 述 , 针 对 目前 利用 专利 文献 数据 进行 核心 
挠 本 识别 研究 中 的 不 足 , 本 文 提 出 基于 Chunk -LDAvis 


榜 春 的 核心 技术 主题 识别 方法 ,主要 创新 之 处 在 于 通 
志 区 词组 块 标注 进行 语义 增强 的 LDA 主题 识别 ,并 基 
Reb 前 端 技术 研究 探索 交互 式 可 视 化 技术 进行 主 
题 美 联 分 析 , 从 而 提升 核心 技术 主题 识别 分 析 的 准确 


性 租 可 读 性 ,并 通过 对 整个 流程 的 实证 研究 验证 该 方 


法 的 有 效 性 。 
2 基于 ChunkJTDAvis 的 核心 技术 主题 


识别 框架 
通过 对 相关 研究 的 总 结 归纳 ,核心 技术 主题 识别 
研究 存在 两 个 相互 联系 的 改进 .提升 方向 :中 增强 技术 


主题 的 语义 信息 ,提高 内 容 特征 信息 量 ;@ 识 别 技术 主 
题 之 间 内 容 维度 的 关联 ,并 利用 关联 关系 识别 核心 技 
术 主 题 。 前 者 是 基础 , 即 通过 主题 模型 语义 分 析 等 方 
法 能 够 更 加 有 效 地 ( 相 较 于 关键 词 .引文 链接 ) 归纳、 
概括 专利 文本 的 内 容 特 征 ;后 者 是 深化 , 即 在 技术 主题 
语义 表征 的 基础 上 ,可 以 增加 核心 技术 主题 之 间 语 义 
维度 的 关联 ,而 不 是 简单 的 共 现 关联 ,进而 依据 语义 维 
度 的 关联 关系 识别 核心 技术 主题 。 基 于 以 上 分 析 , 本 
文 提 出 基于 Chunk-LDAvis 的 核心 技术 主题 识别 框架 ， 
主要 包括 数据 收集 与 处 理 .语义 增强 的 主题 识别 ,核心 
技术 主题 判定 和 关联 可 视 化 分 析 等 4 个 系统 流程 , 主 
要 思路 如 图 1 所 示 : 
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图 1 基于 Chunk-LDAvis 的 核心 技术 主题 识别 的 方法 思路 


第 一 步 ,数据 收集 与 处 理 。 根 据 目 标 确定 数据 库 ， 
构建 检索 式 获 取 相 应 技术 领域 的 专利 文献 。 然 后 进行 
数据 处 理 ,包括 专利 文献 格式 转换 ,因为 研究 目的 为 核 
心 专利 主题 分 析 , 所 以 需要 进行 题名 、 摘 要 和 时 间 等 关 
键 信 息 提 取 , 并 保存 至 本 地 以 备 后 续 研究 使 用 。 

第 二 步 ,语义 增强 的 LDA 主题 识别 。 首 先 基 于 经 
典 LDA 模型 进行 主题 识别 ,然后 利用 词性 标注 、 句 法 
分 析 和 语法 分 析 进 行 主 语 名 词组 块 (Subject Noun 
Trunk , 即 代表 主语 的 名 词 短语 ) 宾语 名 词组 块 ( Object 
Noun Trunk , 即 代 表 宾 语 的 名 词 短语 ) 抽取 ,并 以 之 为 
基础 对 初始 LDA 主题 识别 结果 进行 标注 ,构建 Chunk- 
LDA 主题 识别 结果 ,进而 增强 LDA 主题 识别 结果 的 语 
义 功能 ,提高 其 可 解读 性 。 


第 三 步 ,核心 技 术 主 题 判 别 。 划 分 时 间 窗 口 ,构建 
主题 网 络 ,基于 社会 网 络 分 析 方 法 识别 核心 专利 主题 。 
第 四 步 , 基 于 Chunk-LDAvis 的 核心 技术 主题 可 视 
化 分 析 。 利 用 Web 前 端 技 术 ,绘制 可 交互 的 Chunk - 
LDAvis 核心 技术 主题 关联 分 析 图 谱 , 然 后 搭建 Web 数 
据 库 进 行 在 线 测试 ,从 核心 技术 主题 识别 结果 的 语义 
提升 和 可 解读 性 等 两 个 方面 进行 改进 ,进而 有 效 识 别 、 
分 析 核 心 技术 主 题 。 
下 面 对 主 要 步 又 进行 详细 介绍 。 
语义 增强 的 LDA 主题 识别 
(1) 初 始 LDA 主题 识别 。 近 年 来 学 界 提出 了 众多 
主题 模型 ,比如 潜在 语义 索引 (Latent Semantic Anal- 
ysis, LSA) .概率 性 潜在 语义 索引 75! ( Probabilistic La- 


2.1 


75 
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tent Semantic Analysis, pLSA) 和 LDA 模型 等 。 与 LSA 
和 pLSA 模型 相 比 ,LDA 模型 不 仅 能 预测 训练 集 文档 
的 主题 分 布 ,而 且 能 够 有 效 预测 非 训练 集中 的 文档 和 
词 的 主题 分 布 ,因此 ,LDA 模型 逐渐 成 为 分 析 大 规模 非 
结构 化 文档 集 的 最 有 效 工具 之 一 。 

具体 来 讲 ,LDA 是 一 种 三 层 ( 词 .主题 和 文档 ) 贝 
叶 斯 概率 模型 ( 见 图 2) ,LDA 模型 假设 文档 是 由 若干 
隐 性 主题 组 成 ,而 主题 是 由 词 表 中 的 所 有 词汇 组 成 。 
LDA 主题 模型 的 联合 分 布 概率 如 公式 (1) 所 示 : 

P(8,2,w) = P(glo) || Pz, 10) PCw,lz, B) 

公式 (1) 

其 中 ,M 为 文档 数目 ,K 为 主题 数目 ,N 表示 第 m 
个 文档 的 单词 数目 ,0 为 参数 a 的 Dirichlet 分 布 采样 ,z 
表示 主题 ,w 表示 主题 词 ,e 为 参数 为 B 的 Dirichlet 分 
RRE- 
LDA PERIE REFET ER I FAR: 
CI ) 从 参数 为 B 的 Dirichlet 分 布 中 为 每 个 主题 采样 
主题 一 单词 分 布 p,, 即 有 kp, ~ Dir(B) , ke [1,K]。 
它 2 ) 从 参数 为 的 Dirichlet 分 布 中 为 每 个 文档 采样 
3CPS— 3:8) 0, WH 0, ~ Dir(a) , me [1, M]. 
> 六 对 文档 mm P n(n e [1, NN, ) 个 词 : 
CX) 从 参数 为 9, 的 多 项 式 分 布 中 采样 1 个 主题 
z SEA z, ~ Mult( 0,)。 
S 从 参数 为 ,的 多 项 式 分 布 中 采样 1 个 具体 


AT w, BI w, , ~ Mult 9.) o 


2 LDA 模型 


本 人 研究 具体 使 用 R 语言 下 的 topic models 工具 包 
(https://cran. r-project. org/ web/ packages/topicmodels) 
进行 LDA 主题 识别 。 在 R 语言 中 ,主要 有 两 个 工具 包 
提供 了 LDA 模型 :LDA 和 topic models 工具 包 。 前 者 
提供 了 基于 Gibbs 采样 的 经 典 LDA 、MMSB ( the Mixed- 
meMbership Stochastic Block Model ) , RTM ( Relational 
Topic Model) 和 基于 VEM ( Variati-onal Expectation -max- 
imization) 的 sLDA ( supervised LDA ) .RTM。 后 者 提供 
LDA, VEM,LDA, Gibbs, CTM _ VEM ( correlated topics 
model)3 种 模型 。 
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利用 LDA 对 文献 数据 进行 建 模 关键 是 要 推断 出 
超 参数 a 和 B, 即 要 计算 出 每 个 文档 一 主题 分 布 0,, 和 
主题 一 单词 分 布 pv, 隐 式 参数 。 目 前 对 于 LDA 模型 
中 参数 估计 的 方法 有 最 大 后 验 估计 MAP ( Maximum a 
Posteriori) 、 变 分 贝 叶 斯 估计 VB( Variational Bayes) 、 变 
分 贝 叶 斯 推 岂 CVB ( Variational Bayesian Inference ) 和 
吉 布 斯 采样 GS( Gibbs Sampling) 等 方法 ,本 研究 选用 R 
语言 下 的 topic models 工具 包 的 LDA_Gibbs 模型 对 
LDA 模型 参数 进行 估计 。 

(2) 语 义 组 块 标注 。 在 初始 LDA 主题 识别 处 理 之 
后 ,对 于 各 个 主题 的 支持 文档 ,基于 Python 语言 ,利用 
词性 标注 句法 分 析 和 语法 分 析 抽 取 某 一 主题 下 的 文 
持 文档 中 代表 主 、 宾 语 的 名 词组 块 。 具 体 可 以 分 为 
TAG CHUNK 和 ROLE 3 个 步 又。 

首先 TAG ,根据 各 个 词 在 句子 中 的 作用 ,对 其 进行 
词性 标注 ,主要 包括 动词 (VB)、 名 词 (NN)、 代 词 (PR 
+ DT) JE ESI CJ) 、 副 词 (RB) Api] CIN) .连词 (CC ) 
和 感叹 词 (UH) 等 。 

CHUNK, 即 进行 组 块 (chunk ) 标注 ,组 块 标签 分 配 
给 属于 在 一 起 的 单词 组 ( 即 短语 ) ,比如 名 词 短语 (NP， 
例如 the red coat) 和 动词 短语 (VP ,例如 is doing) ,具体 
如 表 1 rz: 


R1 组 块 标签 及 其 含义 


组 块 标签 含义 成 分 例子 
NP 名 词 短语 DT+RB+JJ+NN + PR the strange bird 
PP 介词 短语 TO IN in between 
VP 动词 短语 RB +MD +VB was looking 
ADVP 副词 短语 RB also 
ADJP 形容 词 短语 CC+RB «JJ warm and cosy 
SBAR 从 属 连 词 IN whether or not 
INTJ 感叹 词 UH hello 


ROLE ,语义 角色 标签 描述 了 不 同 组 块 之 间 的 关 
系 ,阐明 了 组 块 在 句子 中 的 作用 。 句 子 中 最 常见 的 角 
色 是 SBJ( 主语 名 词 短 语 ) 和 0BJ( 宾语 名 词 短 语 ) 。 句 
子 的 主语 是 做 茶 事 或 做 某 事 的 人 事物、 地 点 或 想法 。 
句子 的 宾语 是 受 动作 影响 的 人 / 物 ,具体 如 表 2 所 示 : 
表 2 组 块 语义 角色 标签 及 其 含义 
语义 角色 标签 AX 成 分 例子 
SBJ 主语 名 词 短语 NP 


the boy sat on the Chair 


OBJ 宾语 名 词 短语 NP +SBAR 


the boy sat on the Chair 


S 


直观 解释 上 述 过 程 ,以 “Phrase -LDAvis model is 
helpful to detect the core technology topic. ”这 一 句子 为 例 


进行 语义 组 块 抽取 测试 ,结果 见 图 3 ,可 以 标注 出 每 个 
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刘 自 强 , 许 海 云 ; KG, 等 . 基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 研究 []]. 图 书 情 报 工作 ,2019,63(9):73 - 84. 


单词 的 词性 .组 块 以 及 标注 组 块 的 语义 角色 ,最 终 得 到 
该 句子 中 代表 主语 成 分 的 名 词组 块 Phrase-LDA model 
和 代表 宾语 成 分 的 名 词组 块 the core technology topic, 


如 图 3 所 示 : 
IPython console 
Q Console 1/4 B m" 
In [1]: runfile('C:/Users/lenovo/Desktop/f8 Hd Bir. É.py', wdire'C:/Users/lenovo/Desktop/ 
日 块 抽取 示例 ') 
WORD TAG CHUNK ROLE ID PNP LEMMA 
Phrase-LDAvis NN NP SBJ 1 phrase-ldavis 
model NN NP ^ SBJ 1 mode: 
is VBZ x: 1 be 
helpful JJ ADJP helpful 
to TO VP E 2 = to 
detect VB Meo = 2 = detect 
the DT NP 083 2 = the 
core JJ p^ 083 2 core 
technology NN | ^ 083 2 A technology 
topic NN NP^ 08 2 - topic 


Chunk('Phrase-LDAvis model/NP-SBJ-1') -» [Chunk('Phrase-LDAvis model/NP-SBJ-1')] 
Chunk('the core technology topic/NP-0BJ-2') => [Chunk('the core technology topic/NP-0BJ-2')] 


3 语义 组 块 抽取 测试 结果 


y=(3 ) Chunk -LDA 标注 。 在 第 (2) 步 语义 组 块 抽取 
果 的 基础 上 ,对 第 (1) 步 LDA 主题 识别 初始 结果 主 
id] ( 单一 主题 词 ) 进行 组 块 标注 ,从 而 实现 对 LDA 主 
识别 结果 的 组 块 标注 ,比如 ,以 “Phrase-LDAvis model 
ischel ful to detect the core technology topic" 中 的 主题 词 
teghnology 进行 组 块 标注 technology — the core technol- 
oftopic ,可 以 得 到 语义 增强 的 Chunk -LDA, 从 而 提高 
是 识别 结果 的 可 读 性 (语义 功能 ) 。 
@ 〇 由 于 某 一 主题 词 可 能 对 应 若干 个 主 、 宾 语 名 词组 
其 流 步 又 中 关键 问题 在 于 如 何 确定 主题 词 对 应 的 组 
块 之 本 文采 取 的 解决 方法 是 ,首先 根据 主题 词 对 应 的 
站 渤 来 确定 相应 的 生成 文档 ( 主题 词 一 主题 一 主题 文 
档 晤 然后 抽取 出 这 些 对 应 文档 的 语义 组 块 ,并 按照 频 
HEF ,再 以 主题 词 为 线索 词 选择 出 对 应 的 频次 最 高 
的 细 块 ,从 而 完成 Chunk -LDA 构建 。 
2.2 基于 SNA 的 核心 技术 主题 识别 

专利 文献 中 蕴含 的 技术 主题 之 间 存 在 或 明显 或 隐 
含 的 联系 ,而 这 种 联系 可 以 揭示 某 一 技术 主题 的 重要 
程度 和 核心 价值 ,比如 技术 主题 了 与 其 他 者 干 主题 联 
系 越 多 ,表明 主题 T 的 核心 性 越 高 。 

目前 LDA 主题 识别 方法 ,虽然 可 以 识别 出 大 量 文 
本 中 的 主题 ,但 是 无 法 分 析 哪 些 主题 属于 核心 主题 。 
因此 ,本 研究 中 尝试 基于 社会 网 络 分 析 (Social Network 
Analysis , SNA ) 方 法 对 LDA 主题 识别 结果 做 进一步 处 
理 : 即 在 LDA 主题 识别 结果 的 基础 上 ,构建 LDA 主题 
社会 网 络 图 ,通过 中 心性 指标 判断 核心 技术 主题 ,中 心 
性 计算 方法 如 公式 (2) 所 示 : 


] 2 " 
BUS YA 公式 (2) 
À ʻi 


其 中 ,C,(T) 为 主题 Ti 的 中 心性 ,该 中 心性 计算 


公式 为 Bonacich s Centrality, 即 特 征 向 量 中 心 pp»: 
( eigenvector centrality ) ; A; Jy PI 28 I] SR BEAR Fe, A 为 常 
数 ,Ci 为 C; TARWIRI o 
例如 ,基于 LDA 模型 识别 出 的 知 干 技术 主题 集合 
标记 为 了 = | topic 1 ,topic 2,topic 3,…,topic nj ,然后 
基于 R 语言 的 igraph 工具 包 进 行 主题 网 络 G 构建 ,并 
计算 各 个 节点 的 中 心性 值 GCT) ,并 将 其 中 心性 值 的 
大 小 通过 主题 节点 大 小 进行 表示 ,如 图 4 所 示 : 
Topi 10 
Top i4 mE 


Topic 3 


4 基于 SNA 的 核心 技术 主题 网 络 示意 


具体 处 理工 具 是 基于 R 语言 的 igraph 工具 包 进 行 
主题 网 络 G 构建 ,可 视 化 布局 设置 代码 如 图 5 所 示 : 


LDA 主题 网 络 构建 设置 


post <- topicmodels::posterior(lda_ model) 


cor mat <- cor(t(post[["terms"]])) 

cor mat[ cor mat «0.05 ] <- 0 

diag(cor mat) <- 0 

graph <- graph.adjacency(cor mat, weighted- TRUE, mode-"lower") 

graph <- delete.edges(graph, E(graph)[ weight < 0.05]) 

E(graph)$edge.width <- E(graph)Sweight*20 

V(graph)Slabel <- paste("Topic", V(graph)) 

V(graph)Ssize <- colSums(post[["topics"]]) * 15 

par(mar-c(0, 0, 3, 0)) 

set.seed( 110) 

plot.igraph(graph, edge. width = E(graph)Sedge. width, 
edge.color — "orange", vertex.color — "orange", 
vertex.frame.color = NA, vertex.label.color = "grey30") 


图 5 LDA 主题 网 络 构建 设置 


2.3 ”基于 ChunklLDAvis 的 核心 技术 主题 可 视 化 分 析 

科技 情报 分 析 应 该 以 用 户 为 导向 ,但 是 目前 核心 
技术 主题 识别 研究 结果 主要 以 本 地 静态 图 谱 展 示 , 难 
以 多 层次 ` 细 粒度 地 分 析 核 心 技术 主题 内 容 , 往 往 只 能 
观看 到 情报 分 析 人 员 提 供 的 内 容 。 随 着 信息 技术 的 发 
展 , 如 交互 式 可 视 化 技术 可 以 在 一 定 程度 上 弥补 这 一 
不 足 , 即 可 以 通过 交互 式 的 可 视 化 结果 多 层次 地 展示 
科技 情报 结果 ,满足 用 户 的 个 性 化 需求 。 

而 且 , 上 一 步 中 虽然 识别 出 了 核心 技术 主题 ,但 是 
核心 技术 主题 与 其 他 主题 的 相关 关系 和 具体 内 容 ( 主 
题 的 下 位 词 ) 无 法 明确 得 到 ,因此 ,需要 做 进一步 分 析 。 
本 研究 基于 多 维 尺 度 分 析 2 (Multidimensional Scal- 
ing, MDS) ,利用 主题 间 的 欧 氏 距离 ,去 构建 低 维 空间 ， 
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图 二 情报 三 作 
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使 得 LDA 主题 在 此 空间 的 距离 和 在 高 维 空间 中 的 
LDA 主题 之 间 的 相似 性 尽 可 能 地 保持 一 致 , 主题 之 间 
距离 的 远近 表示 主题 的 相关 性 ,可 以 用 这 种 方式 来 进 
一 步 分 析 核 心 技 术 主题 。 


Selected Topic:0 


Previous Topic || NextTopic || Clear Topic 


基于 Chunk-LDAvis 的 核心 技术 主题 可 视 化 


topicl " 


7.00645v1 


"图 6 主要 可 以 分 为 左右 两 个 部 分 ,左边 是 基于 
MDS 算 法 将 LDA 主题 可 视 化 展示 在 二 维 空间 中 , 圆 点 

主题 ( 圆 点 中 的 数字 为 LDA 主题 识别 结果 序号 ) ， 
贺 坝 的 大 小 由 主题 对 应 文档 多 少 决 定 ;右边 为 主题 对 
碾 阅 间 项 ,按照 生成 概率 大 小 排序 。 该 图 利用 Web. 前 
端 性 具 生 成 ,具有 良好 的 交互 式 可 视 化 效果 。 以 topicl 
BAL, Sail topicl 圆 点 ,右边 会 交互 式 地 展示 topicl 下 
页 。 点 击 右 边 的 某 一 词 或 者 组 块 可 以 相应 显示 对 
应 网 主题 totpic。 基 于 上 述 处理 步 又 结果 ,可 以 进行 较 
; 直观 的 核心 技术 主题 分 析 。 

此 外 ,还 可 以 通过 调节 参数 和 (0 < 和 < 1) 来 控 秆 
主题 一 词语 关联 度 relevance(term w | topic t) , 即 可 以 
控制 显示 某 一 主题 的 不 同 的 下 位 词 项 。 参 数 入 计算 方 
法 如 公式 (3)5 Bon: 


i 


r(w 1A) =Alog( o.) + 0 -AMog T 公式 (3) 


其 中 ,w 表示 主题 词 ,we |1, 2,3,…,V | ;名 表示 
主题 ,he |1, 2,3,…,K| ;gi 表示 Gibbs 采样 参数 ;p。 
表示 主题 词 w 的 分 布 概率 。 

入 =0 时 ,显示 主题 下 特有 的 、 相 对 独立 的 下 位 词 
项 , 即 这 些 词 项 往往 只 出 现在 该 主题 ;A =1 时 ,显示 分 
布 概率 更 高 的 下 位 词 项 ,但 是 这 些 高 分 布 概率 的 词 项 
往往 不 单独 属于 该 主题 ,也 会 同时 属于 其 他 主题 。 

2.4 特点 与 优势 
本 研究 构建 的 基于 Chunk -LDAvis 的 核心 技术 主 
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基于 上 述 分 析 , 本 研究 探索 利用 R 语言 的 LDAvis 
工具 包 (https://github. com/cpsievert/LDA vis ) 来 绘制 
交互 式 的 核心 技术 主题 可 视 化 图 谱 , 其 基本 可 视 化 布 
局 及 含义 如 图 6 所 示 : 


Slide to adjust relevance metric:®2) 
入 =1 


Top-30 Most Relevant Terms (y Topic 1 (388% offokens) — 4o 
100 150 201 


0 50 0 


6 LDA 主题 可 视 化 示意 


题 识别 框架 和 基于 引用 特征 、 基 于 文本 内 容 特 征 的 核 
心 技术 主题 识别 方法 相 比 ,具有 以 下 特点 与 优势 : 

从 结果 准确 性 层面 上 来 看 ,是 对 基于 经 典 LDA 模 
型 的 核心 技术 主题 识别 方法 的 改进 (通过 主题 相关 文 
档 数 量 判断 核心 技术 主题 ,认为 某 技术 主题 相关 文档 
数量 越 多 越 可 能 是 核心 技术 主题 ) ,增加 了 主题 关联 视 
角 的 核心 技术 主题 判别 维度 。 

从 结果 内 容 层面 上 来 看 ,每 个 核心 技术 主题 是 由 
一 组 名 词组 块 构成 , 相 较 于 一 组 单词 或 专利 号 等 语义 
表达 能 力 更 强 , 便 于 用 户 进 行 解读 。 

从 结果 呈现 方式 层面 来 看 , 相 较 于 静态 的 核心 技 
术 主 题 知识 图 谱 ,以 动态 .交互 式 的 可 视 化 图 谱 形式 呈 
现 , 对 用 户 更 加 友好 ,便于 进行 情报 分 析 。 


3 ”实证 研究 


3.1 数据 源 

本 文 以 德 温 特 创 新 索引 ( Derwent Innovations Index, 
DID) 数据 库 所 收录 的 2010 年 1 月 1 日 -2017 年 12 月 
31 日 纳米 农业 领域 的 专利 数据 为 数据 源 。DII 数据 库 是 
基于 Web 的 专利 信息 数据 库 , 收 录 了 来 自 全 球 40 多 个 
专利 机 构 ( 涵 盖 100 多 个 国家 ) 的 1 000 多 万 条 基本 发 
明 专 利 ,2 000 多 万 条 专利 信息 ,有 利于 在 一 个 技术 主题 
下 进行 全 球 专利 研发 状况 和 技术 攻关 信息 的 研究 ， 
此 ,以 DII 数据 库 收 录 的 纳米 农业 专利 数据 作为 识别 纳 
米 农 业 领 域 核心 技术 主题 的 数据 源 是 可 行 有 效 的 。 


X| 8 5E, 许 海 云 , Amik, 等 . 基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 研究 []]. 图 书 情 报 工作 ,2019 ,63(9) :73 - 84. 


在 DII 数据 库 中 ,使 用 检索 式 Keyword = “Nano 
”进行 检索 ,检索 时 间 跨 度 为 2010 年 1 月 
1 日 -2017 年 12 H 31 日 ,得 到 检索 结果 4 937 项 。 各 
F 度 专利 数量 如 图 7 所 示 : 


agriculture * 


B 


确定 的 基础 上 ,利用 RR 语言 下 的 topic models 工具 包 进 

行 LDA 主题 识别 ,然后 将 主题 识别 结果 保存 至 本 地 以 

为 其 添加 组 块 标注 。 初 始 LDA 主题 识别 结果 得 到 之 

后 ,按照 前 文 所 述 方法 利用 Python 进行 组 块 抽取 ,组 块 
抽取 部 分 结果 见 图 9。 

840 然后 ,基于 组 块 抽取 结果 ,对 初始 
LDA 主题 识别 结果 进行 组 块 标注 ,得 
到 语义 增强 的 LDA 主题 (Chunk -LDA 
主题 ) ,并 以 Chunk -LDA 主题 一 文档 
和 矩阵 的 形式 保存 至 本 地 ,部 分 结果 见 
图 10。 


3.3 基于 SNA 的 核心 技术 主题 识别 
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图 7 专利 数量 年 度 划 分 


314) 语义 增强 的 LDA 主题 识别 
进行 LDA 主题 识别 首先 应 该 做 的 是 预 估 输 入 文 
档 仿 合 中 共有 多 少 个 主题 (K) ,目前 研究 中 ,学 者 主要 
利用 困惑 度 ( perplexity ) 和 对 数 似 然 值 (log likelihood ) 
的 变化 进行 估计 。 前 者 随 着 主题 数量 的 增加 递减 ,后 
都 区 着 主题 数量 的 增加 递增 ,一 般 两 者 变化 趋 于 平缓 时 
的 宇 题 数 即 可 作为 估计 的 主题 数量 。 其 中 ,本 研究 使 用 
ISUNAK fi (Log likelihood) 进行 最 优 主 题 数 的 确定 。 
目前 研究 中 ,最 优 主 题 数 确定 之 前 需要 对 数据 集 
中 忽 含 的 主题 数目 有 一 定 的 先 验 估计 。 本 研究 估计 所 
下 喜 的 专利 数据 集中 的 主题 数目 为 100 个 以 内 。 
此 = 进行 欠 代 实验 以 确定 最 优 主题 数 ,K 从 1 -100, 步 
进 25 ,每 个 主题 数 运行 1 000 次 迭代 ,得 到 每 个 K 和 
对 应 的 对 数 似 然 值 ,如 图 8 所 示 : 
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图 8 基于 对 数 似 然 值 的 LDA 主题 个 数 确定 


从 图 8 中 可 以 看 出 ,当主 题 数 取 90 时 LDA 模型 的 
对 数 似 然 值 趋 于 稳定 ,并 且 于 97 得 到 最 大 值 。 因 此 ， 
本 次 实验 选择 主题 数 为 K=97。 在 完成 LDA 主题 个 数 


在 上 一 步 数据 处 理 结果 (语义 增 
强 的 LDA 主题 识别 ) 的 基础 上 ,基于 社 
会 网 络 分 析 (Social Network Analysis , 
SNA) 方 法 对 LDA 主题 识别 结果 做 进一步 处 理 : 在 LDA 
主题 识别 结果 的 基础 上 ,构建 LDA 主题 社会 网 络 图 , 通 
过 中 心性 指标 判断 核心 技术 主题 。 对 识别 出 的 97 个 主 
题 进行 社会 网 络 分 析 , 构 建 LDA 主题 可 视 化 网 络 ,结果 
如 图 11 所 示 , 其 中 节点 的 大 小 由 中 心性 决定 。 


Q Console 1/4 B LE! 
Chunk('rejection episode/NP-SBJ-3') => [Chunk( rejection episode/NP-SBJ-3')] 
Chunk('nanoparticle formulation/NP-SBJ-4') => [Chunk('nanoparticle formulation/NP-SBJ-4')] 
Chunk('pest activity/NP-SBJ-3') => [Chunk('pest activity/NP-SBJ-3')] 
Chunk('Composition/NP-SBJ-1') => [Chunk('Composition/NP-SBJ-1')] 

Chunk('soybeans or canola/NP-SBJ-2') -» [Chunk('soybeans or canola/NP-SBJ-2')] 
Chunk('film/NP-0BJ-1') => [Chunk('film/NP-0BJ-1')] 

Chunk('which toner/NP-SBJ-5') => [Chunk('which toner/NP-SBJ-5')] 

Chunk('a mat/NP-SBJ-1') => [Chunk('a mat/NP-SBJ-1')] 

Chunk('quaternary ammonium salt/NP-SBJ-2') => [Chunk('quaternary ammonium salt/NP-SBJ-2')] 
Chunk('plant/NP-SBJ-2') => [Chunk('plant/NP-SBJ-2')] 

Chunk('corn/NP-0BJ-2') => [Chunk('corn/NP-0BJ-2')] 

Chunk('herbicidal and/or insecticidal properties/NP-SBJ-4') => [Chunk('herbicidal and/or 
insecticidal properties/NP-SBJ-4')] 

Chunk('microcapsules/NP-SBJ-5') -» [Chunk('microcapsules/NP-SBJ-5')] 
Chunk('nanoparticle/NP-0BJ-1') => [Chunk('nanoparticle/NP-OBJ-1')] 

Chunk('silver chloride/NP-SBJ-3') -» [Chunk('silver chloride/NP-SBJ-3')] 
Chunk('fibers/NP-0BJ-2') => [Chunk('fibers/NP-082-2')] 

Chunk('layer and a performance/NP-OBJ-4') => [Chunk('layer and a performance/NP-0BJ-4')] 
Chunk('product/NP-OBJ-5') => [Chunk('product/NP-0BJ-5')] 

Chunk('lawn grass regeneration/NP-SBJ-1') => [Chunk('lawn grass regeneration/NP-SBJ-1')] 
Chunk('nanocarbon soil matrix/NP-OBJ-1') => [Chunk('nanocarbon soil matrix/NP-OBJ-1')] 
Chunk('nanocarbon and Festuca/NP-0BJ-5') => [Chunk('nanocarbon and Festuca/NP-0BJ-5')] 
Chunk('livestock/NP-SBJ-1') => [Chunk('livestock/NP-SBJ-1')] 

Chunk('fluid/NP-OBJ-3') => [Chunk('fluid/NP-OBJ-3')] 

Chunk('housing and molding unit/NP-SBJ-5') => [Chunk('housing and molding unit/NP-SBJ-5')] 
Chunk('artificial soil medium/NP-SBJ-1') -» [Chunk('artificial soil medium/NP-SBJ-1')] 
Chunk('artificial soil particles/NP-0BJ-2') => [Chunk('artificial soil particles/NP-0BJ-2')] 
Chunk('two or more fillers/NP-OBJ-3') => [Chunk('two or more fillers/NP-0BJ-3')] 


9 组 块 抽取 结果 部 分 


通过 计算 ,排序 ,得 到 核心 技术 主题 排序 及 其 Ci 
(T) 值 ,具体 见 表 4。 结 合 可 视 化 结果 ,通过 分 析 中 心 
性 可 以 较为 直观 地 发 现 纳米 农业 领域 的 核心 主题 ,如 
Topicl , Topic40 , Topic60 等 主题 位 于 纳米 农业 领域 主题 
网 络 的 核心 位 置 , 进 而 可 以 判断 其 为 核心 技术 主题 。 

基于 SNA 方法 虽然 可 以 识别 出 纳米 农业 领域 的 
核心 技术 主题 ,但 是 其 解读 与 分 析 还 存在 一 定 的 难度 ， 
难以 满足 实际 情报 分 析 需 求 ,因此 ,本 研究 对 其 结果 做 
进一步 处 理 , 基 于 Web 前 端 技术 将 结果 进行 交互 式 可 
视 化 处 理 , 增 强 结 果 的 可 读 性 和 分 析 维 度 。 最 后 ,基于 
核心 技术 主题 可 视 化 图 谱 , 分 析 纳 米 农业 领域 的 核心 
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A B c D E F 
comprises nanotitanium, selenium enriched, EN promoting agent, silver antibacterial, E 
strain cqma421, herbicidal composition, lipid nanoparticles, powdery mildew, essential nanoliposome, p 
emulsifier water, preparation method, agent sterilizing, nanosilver antimicrobial, phospholipid bilayer, e 
1 agent solvent, powder comprises, substrate: coti Sise rich organic, connected lamp, agent K 
Fico polymer carrier, filling wood, nanoparticles stabilizing, nanocomposite antibacterial, additive, containing 9 
—'opic wrapped phospholipid, fiber material, comprises nanoparticulate, dichlorophenoxyacetic acid, polymerassociated, " 
foodstuff beverage, electromagnetic radiation, specific selenium, comprises nanostructured, nanoparticle containing, s 
stabilizer solvent, metarhizium anisopliae, beauveria bassiana, comprises nanotitanium, antibacterial activity, s 
additive comprises, method producing, olution prepared, antimicrobial applications, agent including, surface s 
1 ”0.057377049 ”0.073770492 0. 040983607 ”0.040983607 0.040983607 
2 0. 053846154 0. 069230769 0. 053846154 0. 053846154 0. 053846154 
3 0. 040983607 0. 040983607 0. 040983607 0. 040983607 0. 040983607 
n 0. 056451613 0. 040322581 0. 040322581 0. 072580645 0. 040322581 
5 0. 0703125 0. 0390625 0. 0703125 0. 0390625 0. 0703125 
6 0. 043859649 0. 043859649 0. 043859649 0. 096491228 0. 043859649 
1 0. 040322581 0. 040322581 0. 040322581 0. 072580645 0. 040322581 
8 0. 044642857 0. 044642857 0. 044642857 0. 044642851 0. 044642857 
9 0. 03968254 0. 071428571 0. 03968254 0. 03968254 0. 03968254 
10 0. 040983607 0. 057377049 0. 057377049 0. 040983607 0. 040983607 
m 0. 0390625 0. 0390625 0. 0546875 0. 0390625 0. 0546875 
12 0. 048076923 0. 048076923 0. 048076923 0. 048076923 0. 048076923 
13 0. 058333333 0. 041666667 0. 041666667 0. 041666667 0. 041666667 
14 0. 038461538 0. 038461538 0. 053846154 0. 053846154 0. 038461538 
15 0. 041666667 0. 058333333 0. 041666667 0. 041666667 0. 041666667 
16 0. 049019608 0. 049019608 0. 049019608 0. 049019608 0. 049019608 
17 0. 053846154 0. 053846154 0. 038461538 0. 053846154 0. 053846154 
18 0. 049019608 0. 049019608 0. 049019608 0. 049019608 0. 049019608 
19 0. 038461538 0. 084615385 0. 038461538 0. 053846154 0. 038461538 
20 0. 048076923 0. 067307692 0. 048076923 0. 048076923 0. 048076923 
2 0. 0390625 0. 0859375 0. 0703125 0. 0390625 0. 0546875 
22 0. 056451613 0. 040322581 0. 040322581 0. 040322581 0. 056451613 
23 0. 059322034 0. 059322034 0. 076271186 0. 059322034 0. 042372881 
: ES 
2 图 10 Chunk-LDA 主题 识别 结果 (部 分 ) 
| Topic 24 
S et 
" 
"E" 
LI esl 
8mm 
Z sz ` H 
11 纳米 农业 领域 核心 技术 主题 网 络 
x " P 
表 4 核心 主题 排序 及 其 Ci(T) 值 ( 部分) 
EN . x E , m n : 
排序 Ci(T) 排序 主题 了 Ci(T) 排序 AT Ci(T) 
1 Topic 1 1.00 7 Topic 33 0.76 13 Topic 9 0.27 
2 Topic 40 0.87 8 Topic 6 0.56 14 Topic 14 0.25 
3 Topic 59 0. 86 9 Topic 5 0.34 15 Topic 22 0.24 
4 Topic 73 0. 82 10 Topic 15 0.31 16 Topic 50 0.21 
5 Topic 12 0. 79 11 Topic 13 0.29 17 Topic 92 0.16 
6 Topic 60 0.78 12 Topic 8 0.29 18 Topic 44 0.16 
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, mk, 等 .基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 研究 [ 相 . 图 书 情报 工作 ,2019 ,63(9):73 - 84. 


3.4 基于 Chunk-LDAvis 的 核心 技术 主题 可 视 化 分 
析 

在 上 一 步 基 于 SNA 的 核心 技术 主题 识别 结果 的 
基础 上 ,选取 排序 前 15 的 核心 技术 主题 ,利用 LDAvis 
工具 包 来 绘制 交互 式 的 纳米 农业 领域 核心 技术 主题 可 
视 化 图 谱 ,图 12 为 纳米 农业 领域 核心 技术 主题 可 视 化 
静态 结果 ,动态 .可 交互 的 可 视 化 结果 已 经 上 传 到 自 建 


Previous Topic | | Next Topic | | Clear Topic 


Selected Topic: 1 


于 Chunk-LDAvis 的 核心 技术 主题 可 视 化 


Wt 


Marginal topic distribution 


v:202307.00645v1 


LAE] 12 中 ,可 以 发 现 Topic 1, Topic 40, Topic 59, 
Topie 60 „Topic 73 „Topic 12 和 Topic 33 等 7 个 主题 核 
心 年 题 的 位 置 与 LDA 主题 网 络 图 中 的 位 置 基本 一 致 ， 
但 是 图 12 中 节点 的 大 小 正比 于 主题 概率 ,因此 和 LDA 
主题 网 络 图 中 主题 节点 的 大 小 (正比 于 主题 中 心性 ) 
有 所 差异 。 

在 上 述 结果 的 基础 上 ,综合 进行 纳米 农业 领域 的 
核心 技术 主题 分 析 , 选 取 纳 米 农业 领域 的 top3 的 核心 
技术 主题 进行 具体 分 析 : 

(1)Topiel - 纳米 农药 。 结 合 Topic 1 下 位 短语 对 
其 进行 分 析 可 知 ,纳米 技术 在 农药 中 的 应 用 主要 有 3 
种 形式 :四 利用 纳米 加 工 技术 使 农药 原 药 纳米 化 , 制 成 
纳米 分 散 体 .纳米 乳剂 纳米 颗粒 或 纳米 微 球 , 增 加 农 
药 制 剂 的 比 表面 积 ,提高 农药 的 油 溶性 或 水 混 溶性 , 改 
善 农药 在 水 中 的 分 散 性 和 稳定 性 ,促进 吸收 。 此 类 纳 
米 农药 有 唆 虫 啉 农药 纳米 颗粒 , 唑 菌 胶 酯 农药 A 
菊 酯 纳米 乳剂 组 合 物 以 及 一 些 茉 并 唑 `. 苯 基 化 合 物 等 
纳米 微粒 。@) 利 用 纳米 载体 负载 农药 ,提高 环境 敏感 
农药 的 稳定 性 ,改善 药物 在 作物 表面 的 粘 附 性 和 渗透 


网 站 ,可 以 在 线 访问 (https://www. informationscience. 
top/core technology topic/) 。 网 页 中 左边 代表 主题 编号 
的 圆 点 可 以 点 击 ,鼠标 停留 在 圆 点 上 会 显示 构成 该 主 
题 的 Top -30 名 词组 块 ;右边 的 名 词组 块 也 可 以 点 击 ， 
鼠标 停留 在 名 词组 块 上 会 显示 该 名 词组 块 所 在 的 主 


题 。 


Slide to adjust relevance metric?) Ij 
| ] 1 I | l 
入 =1 oo 02 04 06 08 10 


Top-30 Most Relevant Terms for Topic 1 (19.696 of tokens) 


图 12 纳米 农业 领域 核心 技术 主题 可 视 化 


性 ,减少 流失 。 名 将 一 些 金属 或 无 机 材料 制 人 农药 , 增 
强 农 药 的 杀 苗 和光 催 化 作用 ,促进 农药 分 解 ,降低 农药 
残留 。 如 新 型 光触媒 杀 虫 剂 .纳米 二 氧化 钛 复合 农药 
等 。 男 外 ,一 些 新 型 纳米 农药 和 防虫 害 绥 释 剂 还 可 以 
增加 植物 的 害虫 抗 性 或 真菌 抗 性 ,抑制 微生物 的 生长 
和 增值 ,保障 植物 的 健壮 性 ,并 具有 良好 的 除草 效率 和 
环保 性 。 

(2) Topic 40 -农业 装置 与 器 械 。 通 过 分 析 该 主题 
的 具体 内 容 ,可 以 发 现 纳米 技术 在 农业 装置 与 器 械 方 
面 的 应 用 主要 集中 于 以 下 3 个 方面 :中 灌溉 系统 OK 
系统 与 养殖 系统 。 纳 米 技术 在 灌溉 、 净 水 与 养殖 等 运 
用 和 处 理 水 的 多 系统 中 的 应 用 主要 体现 于 使 用 纳米 管 
进行 排水 和 净 水 的 纳米 净化 曝 气 器 、 纳 米 气泡 发 生 装 
置 等 ,用 于 保温 的 纳米 碳 布 以 及 用 于 承重 和 容纳 的 纳 
米 文 撑 盘 和 纳米 盘 槽 。@ 温 室 大 棚 装置 。 纳 米 技 术 在 
温室 大 棚 装 置 中 的 应 用 集中 于 使 用 纳米 碳 管 收集 太阳 
能 热力 ,使 用 纳米 碳 布 和 纳米 玻璃 进行 保温 ,使 用 纳米 
涂 层 进 行 发 电 和 杀菌 ,使 用 纳米 发 电 玻璃 和 纳米 电网 
进行 照片 等 。@ 自 走 式 联 合 收割 机 、 播 种 机 、 施 肥 机 。 
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纳米 技术 在 此 类 农业 器 械 中 的 应 用 主要 集中 于 发 挥 支 
撑 、 受 力 和 保护 作用 的 纳米 机 架 和 纳米 挡 板 .发挥 运输 
作用 的 纳米 输送 系统 ,发挥 采集 作用 的 纳米 管 和 纳米 
R ,发挥 去 污 功能 的 纳米 纤维 等 。 

(3 )Topic 59 - 农业 环境 改良 。 分 析 该 主题 的 具体 
内 容 可 知 ,纳米 材料 因 其 巨大 的 比 表 面积 以 及 可 修饰 
的 多 种 官能 团 使 其 容易 与 环境 中 的 有 机 化 合 物 和 重金 
属 粒子 等 污染 物 结合 ,在 农业 环境 改良 方面 发 挥 着 越 
来 越 重 要 的 作用 。 如 目前 研究 中 侧重 利用 氧化 锌 / 硅 
菠 土 纳米 复合 材料 进行 污水 处 理 ; 纳 米 二 氧化 钛 用 于 
生物 吸附 剂 ,可 以 具备 优异 的 吸附 容量 、 较 高 的 重金 属 
选择 性 和 较 高 的 降解 去 除 有 机 污染 物 .病原 菌 和 微 生 
物 的 能 力 ; 如 何 利用 氧化 石墨 烯 和 和 氧化 铁 磁性 纳米 颗 
粮 制 成 磁性 纳米 杀菌 剂 也 是 该 主题 的 重要 内 容 。 利 用 
纳米 技术 将 银 纳米 化 ,纳米 银 杀菌 具有 光谱 抗菌 、 强 效 
KE 渗透 性 强 .抗菌 持久 等 特点 ,在 农业 环境 改良 方 


处 理 方面 ,该 主题 主要 研究 二 氧化 钛 纳米 复合 水 凝 胶 
软化 反应 器 进行 污水 软化 ,使 用 二 氧化 钛 光 催 化 剂 去 
除 藻类 ,使 用 纳米 银 复合 材料 进行 有 机 毒物 的 分 解 降 
解 及 其 杀菌 应 用 等 。 在 抗菌 杀毒 方面 ,主要 研究 使 用 
银 水 性 聚氨酯 来 抗菌 .杀菌 和 除 臭 ,使 用 银 纳米 颗粒 稳 
AE ADF VL .将 银 离子 吸附 到 二 氧化 硅 纳米 粒子 上 来 作 
为 杀生 物 剂 或 通过 混合 羟基 吡啶 酮 化 合 物 和 银 化 合 物 
制备 杀生 物 组 合 物 可 有 效 抑制 和 消除 水 中 微生物 。 
3.5 核心 技术 主题 识别 结果 的 检验 

将 实证 结果 与 具体 纳米 农业 领域 专利 分 析 实 践 工 
作 的 结果 进行 对 比 ,以 检验 本 研究 提出 的 核心 技术 主 
题 方法 的 可 行 性 和 有 效 性 。 在 具体 实践 工作 中 (纳米 
农业 领域 专利 态势 调研 分 析 工 作 , 原始 数据 相同 ) ,使 
Heg UE EHE F AY TI( Thomson Innovation, TI) 绘制 了 
纳米 农业 领域 专利 地 图 ( 见 图 13 ) 。 专 利 地 图 中 山峰 
的 海拔 高 度 代 表 特 定 主 题 文 献 的 密度 大 小 ,并 显示 不 


其 是 污水 处 理 和 抗菌 杀毒 方面 应 用 广泛 。 在 污水 
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同 主题 之 间 的 相对 关系 ,可 以 用 于 核心 技术 主题 分 析 。 
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图 13 纳米 农业 领域 专利 地 图 


分 析 图 13 ,可 以 发 现 纳米 农业 领域 的 核心 技术 主 
题 主要 包括 农药 .肥料 ,农业 装置 与 器 械 、 农 产品 加 工 、 
农业 种 植 与 栽培 .农业 环境 改良 和 动 植物 遗传 育种 与 
纳米 检测 等 7 个 主题 。 通 过 与 本 研究 得 到 的 纳米 农业 
领域 核心 技术 主题 识别 结果 对 比 检验 ,可 以 发 现 本 研 
究 识别 出 的 核心 技术 主题 Topic 1 - 纳米 农药 Topic 40 
-农业 装置 与 器 械 和 Topic 59 - 农业 环境 改良 识别 结 
果 与 专利 地 图 结果 1、3 和 6 相符 合 ,在 一 定 程度 上 可 
以 检验 本 文 提出 方法 的 可 行 性 与 有 效 性 。 
3.6 讨论 

与 基于 经 典 LDA 模型 的 核心 技术 主题 识别 方法 
相 比 , 本 文 提出 的 方法 ,一 方面 通过 语义 组 块 标注 改进 
了 经 典 LDA 结果 中 单一 主题 词 的 语义 信息 不 足 问题 ; 
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男 一 方面 , 相 较 于 单纯 依靠 主题 分 布 概率 高 低 来 判断 
核心 主题 ,提出 基于 社会 网 络 和 多 维 尺度 分 析 识 别 主 
题 之 间 的 关联 关系 及 其 可 视 化 的 方法 。 与 目前 基于 关 
键 词 和 分 类 号 共 现 的 核心 专利 主题 分 析 方 法 相 比 ,本 
文中 提出 的 基于 Chunk -LDAvis 的 核心 技术 主题 识别 
方法 ,更 加 具有 针对 性 、 可 读 性 (不 是 单一 的 关键 词 或 
者 分 类 号 ,基本 知识 单元 为 表示 主语 或 者 宾语 的 名 词 
组 块 ) ,而 且 能 够 交互 式 可 视 化 展示 、 分 析 某 技术 领域 
核心 技术 主题 ,提高 了 识别 结果 的 可 读 性 。 

但 是 本 方法 也 存在 一 定 的 局 限 , 如 关于 解决 核心 
技术 主题 语义 信息 不 足 这 一 问题 ,本 文通 过 构建 
Chunk-LDA 主题 来 解决 ,由 于 其 通过 半 人 工 的 方法 得 
到 ,在 分 析 效 率 上 存在 一 定 的 不 足 。 因 此 ,需要 探索 更 
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刘 自 强 , 许 海 云 , Amik, 等 . 基于 Chunk-LDAvis 的 核心 技术 主题 识别 方法 研究 []]. 图 书 情报 工作 ,2019 ,63(9) :73 - 84. 


加 有 效 的 机 器 学 习 方法 ,实现 Chunk -LDA 主题 自动 化 
构建 。 此 外 ,基于 语义 TRIZ 的 专利 主题 表征 方法 也 可 
以 解决 目前 核心 技术 主题 识别 研究 中 语义 信息 不 足 的 
问题 ,即将 基本 专利 知识 单元 表示 为 SAO ( 主 谓 宾 ) 结 
构 ,再 通过 划分 不 同 维度 ,可 以 实现 宏观 .中 观 和 微观 
的 多 层次 核心 技术 主题 分 析 。 


本 文 在 调研 总 结核 心 技术 主题 识别 方法 的 基础 
上 ,提出 基于 Chunk -LDAvis 的 核心 技术 主题 识别 方 
法 ,可 以 用 来 分 析 某 专利 领域 的 核心 技术 主题 。 创 新 
之 处 主要 有 两 点 :一 是 提出 一 种 新 的 基于 语义 组 块 标 
注 的 LDA 主题 分 析 方法 ,二 是 利用 Web 前 端 技术 实现 
J 对 核心 技术 主题 的 隐 含 关系 的 可 视 化 分 析 。 最 后 以 
Ay Kd EROS ,选取 2010 年 至 2017 年 间 共 4 937 
篇 专利 文献 作为 数据 源 ,利用 本 文 提出 的 核心 技术 主 
题名 别 方法 进行 了 实证 研究 ,证 明 本 文 提出 的 方法 是 
8 潭 , 有 效 的。 但 是 ,本 文 提出 的 核心 技术 主题 识别 方 
涛 还 存在 两 点 主要 不 足 :DChunk-LDA 主题 通过 半 人 


才刚 。 因 此 , 接 下 来 的 工作 是 进行 Chunk -LDA EM 
CNI 
动 伐 构 建 以 及 核心 技术 主题 演化 路 径 识别 研究 ,实现 
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Abstract: [ Purpose/significance | Core technology topic identification based on a large number of patent documents 


is-helpful to detect key technologies in a technical field and to analyze the direction of the development of key technolo- 


giés.. It is the basic information work for technological innovation and has certain significance for researchers, enterprises 


afd «even the national level. [ Method/ process ] This paper proposes a core technology topic identification method based 


on"Ghunk-LDAvis. Firstly, it is based on the classic LDA model to identify the topics. Then, the noun chunk is used to 


niark the results of the initial LDA topic identification, and the result of the Chunk-LDA topic recognition is constructed to 


improve its interpretability. Then based on the social network analysis method, the topic network is constructed to identify 


thé-Core technical topics; based on the LDAvis toolkit, the interactive Chunk -LDAvis core technology topic association a- 


nalysis map is plotted, and the hidden links of the core technical topics are found , and the core technology topic detection 


is assisted. [ Result/conclusion | Through the empirical study on the field of nanoscale agriculture, the accuracy and fea- 


sibility of the proposed method are verified. 
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